到底哪款OCR软件识别率最高?免费版居然表现最佳?
OCR软件想必大家都在用,不管是学生党还是上班狗,遇到没有电子文档的时候,拿起手机拍一张,稍稍校对修改一下就能省去手打的麻烦,实在是生产力利器。
然而问题来了,市面上这么多的OCR工具,到底哪款软件最好用呢?网上有不少文章介绍了很多各种各样的OCR工具,多是从功能方面介绍,很少有针对识别率进行对比的,到底哪个识别率最高呢?
黑哥今天就尝试着做个小实验,对比一下到底哪款软件最给力!
特别说明:为充分对比软件识别效果,本文图多,如果不想看细节对比(都是我的心血啊,好意思吗?)可以直接拉到最后看结果。
一、评测准备
本次选中的是Textgrabber、扫描全能王以及白描这三款。
1、主角背景:
A.textgrabber 如果你在电脑上用过ABBYY FineReader Professional,那么你就不会对这款软件感到陌生,都是由OCR界的扛把子ABBYY开发的,在文档识别,数据捕获和语言技术的开发中居世界领先地位。
B.扫描全能王 一款国产软件,其公司在OCR、人工智能、手写识别、图像处理及自动图像增强等领域达到世界领先水平。核心产品名片全能王全球下载用户超过3亿人,扫描全能王全球下载用户3.4亿。
C.白描 这个软件名气不大,出自国人独立开发者之手,开发者陶新乐,一名 iOS 软件工程师。
为什么会拿一款独立软件去跟大厂去怼呢,别着急,往下看你就明白了。
大家知道,作为OCR软件,我们最关心的就是识别率,因此,本次主要从这个方面进行评测对比。
另外,考虑到大家最常用的使用环境是中文、英文文档识别,将对中文、英文、中英文混排三种应用场景分别进行对比。
2、参评软件版本号:
Textgrabber:iOS 平台 6.5.0.1
扫描全能王:Android 平台 5.4.0
白描:Android 平台 1.0.4
别问我为啥平台不统一,textgrabber是App Store限免的时候入的,为了省钱呗。。。
目前三款软件均支持iOS和Android。
3、校对软件:Word 2016
简单介绍一下校对过程,在 Word 2016 里面打开审阅标签,选中对比,即可对原文本与目标文本进行对比。中间为校对区,右上为软件识别文本,右下为原稿。
实际过程中发现对比也会有判断错误的地方,如果大家有更好的文本对比软件,可以介绍给我。
4、原文件 为了尽量减少拍照这一环节对识别结果的影响,在识别对比时,采用的是同一张照片导入三个软件进行分别识别,字号均为五号字。
二、中文文档识别
本文档来自《三体》,共1155个字符。
Textgrabber
经与原文对比,共检查出113处修订。
错误表现:
1、首行缩进均未能正确识别。
2、标点符号识别错误,中文双引号“识别为英文引号"。
3、部分字符识别错误,汪淼识别为汪森。
4、文本识别丢失。
5、右侧边缘文本会莫名其妙插入空格。
扫描全能王
经与原文对比,共检查出103处修订。
错误表现:
1、首行缩进均未能正确识别。
2、标点符号识别错误,中文双引号识别为英文引号,省略号……识别为······
3、在原文换行处错误识别为断行,没有纠正为自动连接。
4、字符识别错误比例低于abbyy,更多来自于格式以及换行错误。
白描
共检查出71处修订。
错误表现:
1、首行缩进均未能正确识别。(目前所有OCR软件的通病,后边不再一一列出。)
2、大部分错误来自标点符号识别错误,特别是段首的标点部分丢失,段尾的标点符号几乎全部丢失,但识别到的中文双引号基本正确,不存在错误识别为英文引号。
3、亮点在于文字的识别率几乎是100%,仅就本测试文档来说,文字全部识别正确。
小结:白描的文字识别率出乎意料地高,而且对原文版式的还原最准确,很少出现错误断行的情况。缺点在于对标点符号的识别上,段首标点部分识别,段末全部阵亡,经与作者反馈,证实确实存在这种情况,将在后续版本进行优化。
中文识别率排名:白描>textgrabber>扫描全能王
三、英文文档
出处忘了,好像是来自一篇小说吧,共498字。
Textgrabber
共检查出27处修订。
错误表现:
1、单词识别率很高,个别单词存在识别错误。
2、部分单词识别丢失。
3、个别标点符号识别错误。整体来说识别率很高。
扫描全能王
共检查出107处修订。
错误表现:
1、部分单词识别错误,准确率要低于abbyy,但优于白描。
2、一个奇怪的发现是word文档对比时将扫描全能王的部分识别结果全部判定为错误,而实际上当我把眼看瞎了也没发现错在何处,所以实际的正确率是要高于对比结果的,难道word跟这货有仇吗?
4、扫描全能王一贯的老毛病依然存在,在换行处未能正确识别,出现多处断行。
5、部分大小写识别错误。
白描
共检查出141处修订。
错误表现:
1、单词识别正确率较高,但由于多处大小写未能正确识别,拉低了识别率。
2、单词之间的空格出现大面积识别丢失。
3、习惯性未能识别出每段段尾的标点符号,及部分段首的标点符号。
4、个别情况出现断行错误。
小结:在这个环节,国际大厂出品的textgrabber不负众望,对英文的识别率及其优异,包括对原文版式的还原也非常不错。从校对结果就能看出很少出现红色勘误。白描在这个环节表现较差,容易出现空格丢失以及大小写识别错误,在英文文本识别中非常吃亏。扫描全能王的表现介于两者之间,同样是识别率不错,但断行习惯性出错。
英文识别率排名:textgrabber>扫描全能王>白描
四、中英文混排文档
出处来自于威锋一篇帖子,759字。
Textgrabber
共检查出69处修订。
错误表现:
1、文本识别结果习惯性在右侧边缘会莫名其妙插入空格。
2、部分字符识别错误,如将mbp15识别为mbpl5。
3、个别标点识别错误。
扫描全能王
共检查出182处修订。
错误表现:
1、依然在换行处未能正确识别,出现多处错误断行。
2、中英文混排的字符出现部分识别错误,如fy识别为行,firefox识别为firefo×。
3、标点符号识别错误率较高。
白描
共检查出142处修订。
错误表现:
1、习惯性问题依然存在,未能识别出每段段尾的标点符号,及部分段首的标点符号。
2、中文识别率较高,中英文混排识别率一般,如将html5test识别为ntml5test。
3、标点符号错误率较高。
小结:该环节各家表现综合了前两轮表现特点,textgrabber在该环节依然稳健,没有特别明显的短板,白描和扫描全能王在前两环节的亮点和缺点也延续在此环节,综合来看,textgrabber表现最佳。
中英文混排识别率排名:textgrabber>白描>扫描全能王
五、综合对比
1、识别率
白描作为一款独立应用,中文的识别率出乎意料地令人印象深刻,同时对原文版式的还原度最高,如果后期对标点符号识别继续优化的话,在中文识别领域里几乎就不存在对手了。
大厂出品的textgrabber表现最为稳定,毕竟是号称OCR界的老大,延续了桌面到手机端的优势,其对英文识别的准确度可谓赏心悦目。
扫描全能王的识别率在于两者之间,没有特别明显的短板,但也没有特别优异的亮点。它的优势在于对文档扫描及文档管理上,但在识别这个环节表现中庸。
总的来说,识别中文文档推荐白描,识别英文文档推荐 Textgrabber。
2、性价比
相较于TextGrabber 30元,和扫描全能王 30 元/月的相比,白描Android版普通版免费,iOS版 6 元的入门价格几乎称得上是白菜价啦!
必须值得一提的是,白描的iOS版还支持表格扫描,其余两款均不支持。为了尝试这个功能,我还特地付费下载测试了一下,虽然在识别格式上还存在很多优化的空间,但总归迈出了值得期待的一步!
对了,白描还有个特别酷炫的功能,其他两款都没有,那就是支持最多9张图片的批量OCR识别,并且还能合并为一个文档!
不然这些爆炸好评怎么来的——
你说,识别率这么高,还卖得这么便宜,你还让不让别人活了,黑哥觉得这款软件卖个三四十块它一点都不贵呀!要下的趁早,说不定哪天就真的提价了,我已经在iOS和Android上都已付费购买,这款良心软件真的值得付费支持!
苹果党可以直接去App Store搜索下载,安卓党可以去酷安下载,也可以在公众号回复 1227 获取最新安卓版云盘下载链接,这么好的货您不在云盘存一份吗?
这篇小评测就算结束了,回头一看怎么变成白描的安利专场了呢?说好的评测呢?
黑哥以为,虽然这篇评测并不是很专业,但还是具有很大参考价值的!毕竟实验数据说明了一切——
没有对比就没有伤害;
不怕不识货,就怕货比货;
是骡子是马拉出来溜溜;
说到底,都是同行衬托的好啊!
PS:写评测真的好累好辛苦,比安利软件麻烦多了,各种意想不到的坑,希望大家在支持白描的同时也多支持黑哥!
热 点 回 头 看
直接点击即可查看